本文是学习GB-T 33919-2017 生物数字标本数据交换规范. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们
本标准规定了计算机系统中用于交换的生物数字标本数据的项目、格式和交换方式。
本标准适用于我国生物数字标本数据的交换。
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 7408 数据元和交换格式 信息交换 日期和时间表示法
GB/T 16831—2013 基于坐标的地理点位置标准表示法
SN/T 2340—2009 有害生物图像摄取操作规范
下列术语和定义适用于本文件。
3.1
生物 organism
植物、动物及微生物(包含病毒)等具有生命的有机体。
3.2
分类阶元 taxonomic category
生物分类学确定共性范围的等级。
注:现代生物分类采用的有界(Kingdom)、门(Phylum)、纲(Class)、目(Order)、科(Family)、属(Genus)、种(Species)
等7个必要的阶元。
3.3
分类单元 taxon
具体的分类群,即分类工作中的客观操作单位,有特定的名称和分类特征。
示例: 一个具体的属、 一个具体的科、 一个具体的目等。
3.4
学名 scientific name
分类单元的拉丁文或拉丁化的科学名称。
3.5
异名 synonym
同一个分类单元未取得优先权的可用名。
3.6
分类地位 taxonomic position
生物所属生物分类单元在分类系统中,从界到当前分类阶元的各分类单元名称的集合。
GB/T 33919—2017
3.7
寄生 parasitism
生物的关系,两种生物在一起生活,
一方受益,另一方受害,后者给前者提供营养物质和居住场所。
3.8
寄主 host
被其他生物所寄生的生物。
3.9
地理分布 geographical distribution
特定生物发生的地区,即官方划定的一个国家的全部或部分,或若干国家的全部或部分。
3.10
生活史 life cycle
物种从个体发生到自然死亡,所经历的生长、分化、生殖、休眠和迁移等全部过程。
3.11
数字标本 digital specimen
生物的形态、生物学、地理分布等相关资料经过数字化处理,形成的文字、图像和视频等格式的计算
机数据集合。
本标准规定在不同计算机系统间进行生物数字标本数据交换的数据项目、格式和数据交换方式。
所述数据项目分为必备项目和从属项目。必备项目为必须参与数据交换的项目,项目缺乏资料时
应用协商确定的术语或符号填充。从属项目为数据交换双方商定的项目。
本标准中日期和时间的表示法见GB/T7408,
采用公历日期和时间标示法的基本格式YYYYMM-
DDThhmmss, 其 中 YYYY、MM、DD 分别表示年、月、日,T
用于分隔日期与时间,hh、mm、ss 分别表示
小时、分、秒,采用通用的24 h
计时系统。日期和时间表示中长度不足的采用前置“0”。
本标准中纬度、经度和高程的表示法见GB/T 16831—2013。
本标准项目中有多组数据时,采用2个间隔符号" \| \|"( \|的ASC
码值124)隔开。
本标准中数据交换软件语法格式中,斜体字符串可自行书写,斜体文字说明字符串的含义,实际书
写时不为斜体。大写字母字符串为可自由命名的字符串。小写字母单词及标点符号为语法中固有的关
键字,不能改变。
标本编号为数据输出方系统中标记生物数字标本所使用的不重复的唯一标识。
从属项目,为中文或其他文种。
数据输出方系统中生物数字标本资料更新的时间,无任何更新的资料时采用新建时间。
必备项目,为数字和英文字母。
生物名称为生物数字标本归属的生物分类单元名称。
GB/T 33919—2017
必备项目,包括下列项:中文名、学名、学名的异名。中文名采用中文,学名和异名采用拉丁文,病毒
采用英文。
从属项目,包括下列项:学名命名人、学名命名年份、中文别名、英文名及英文别名。学名命名人采
用拉丁文;学名命名年份采用数字;中文别名采用中文;英文名及英文别名采用英文。
生物数字标本常用的中文名称放入中文名项目,其他名称放入中文别名项目。
生物数字标本常用的英文名称放入英文名项目,其他名称放入英文别名项目。
生物数字标本学名不含命名人和命名年份。当学名与其他生物学名相同时,应提供学名命名人。
学名命名人和学名命名年份分别放在指定的项目中。
对传输的数据属于生物个体资料或群体资料的说明。
必备项目,为中文。
分类地位为从界至生物数字标本当前阶元的各级分类单元名称。
必备项目,包括下列项:界、门、纲、目、科、属。每个项目中包含中文名和学名,不含命名人和命名
年份。
地理分布包含生物数字标本所属生物群体在全世界所有的分布区域。国外分布为国家名,国内分
布为省名。
必备项目,为中文以及其他文种。
数字标本依托的生物个体实物标本的一个采集地的地名、经纬度和海拔高程。地名应包含国家名,
宜列出省名、市县名和具体地点名称。
从属项目,为中文以及其他文种。
数字标本依托的生物个体实物标本的采集日期。
从属项目,为数字。
数字标本依托的生物个体实物标本的鉴定人姓名。
从属项目,为中文以及其他文种。
数字标本依托的生物个体实物标本的鉴定日期。
从属项目,为数字。
生物个体的寄主为生物数字标本所属生物个体所来自的寄主的名称。
生物群体的寄主范围包含生物数字标本所属生物群体所有寄主的名称。
GB/T 33919—2017
每个寄主列出中文名和学名,至少应列出学名。
必备项目,为中文以及其他文种。
鉴别特征包括生物数字标本所属生物群体的形态特征、培养特征、理化特征、血清学特征等各种用
于识别及分类的特征描述。形态特征包括生活史上有形态差异的各个时期形态的描述,各种性别、型等
形态的描述。
必备项目,为中文以及其他文种。
生物学包含生物数字标本所属生物群体的生活史、生活习性、生理生化等内容。
必备项目,为中文以及其他文种。
生物数字标本所属生物群体被列入各国家(地区)法规时的法规名称和类别。
从属项目,为中文以及其他文种。
图片为生物数字标本所属生物的鉴别特征、为害状等的照片、绘图等,并包括有关图片的标题、说
明、来源等内容。
必备项目,包括下列项:图片文件、图片标题、图片说明、图片来源。
图片标题说明图片的内容或特点,为中文以及其他文种。
图片说明包括图片的内容和解释,为中文以及其他文种。
图片来源是图片的出处,包括图片的网址、出版物等,或图片的拍摄者、绘制者、所有者等,为中文以
及其他文种。
标本编号为字符格式,如同一生物数字标本应传送多个不同类别的标本编号,各编号间用一对"
\|"
符号()相隔。结尾无标点符号。该项目无数据时留空。
数据源更新时间为字符格式,采用一个段落的数字和字符,精确到秒。格式见第4章。
中文名为字符格式,采用一个段落的中文,不含括号及其他标点符号。该项目无数据时留空。
学名为字符格式,采用一个段落的外文,不含命名人和命名年份,由外文字母组成,学名格式遵循有
关的命名法,结尾无标点符号。属、种的学名在数据库中保存为正体,使用时应换成斜体。学名不得
为空。
学名异名为字符格式,可以包含命名人和命名年份,由一个段落的外文字母、括号和数字组成,格式
遵循有关的命名法。各异名之间用一对"
\|"符号(Ⅱ)相隔,除缩写符号外,结尾无其他标点符号。该项
目无数据时留空。
GB/T 33919—2017
学名命名人为字符格式,采用一个段落的外文,由外文字母、括号组成。除缩写符号外,结尾无其他
标点符号。该项目无数据时留空。
学名命名年份为字符格式,由一段数字组成。结尾无标点符号。无数据时留空。
中文别名为字符格式,采用一个段落的中文,各别名之间用一对"
\|"符号(Ⅱ)相隔,结尾无标点符
号。该项目无数据时留空。
英文名为字符格式,采用一个段落的外文,不含括号及其他标点符号。结尾无标点符号。该项目无
数据时留空。
英文别名为字符格式,采用一个段落的外文,各别名之间用一对"
\|"符号(Ⅱ)相隔,结尾无标点符
号。该项目无数据时留空。
记录类型为字符格式,采用一个段落的中文,不含括号及其他标点符号。结尾无标点符号。
分类地位从界至属各项目为字符格式,采用一个段落的中文和外文,每个项目中,中文名在前,外文
在后,中间用半角逗号隔开,结尾无标点符号。如果缺少某种文字的分类单元名称,可以空缺,但是要保
留逗号,以辨识缺少的文种。如生物数字标本为科及以上分类单元,所缺项目内容留空。该项目无数据
时留空。
地理分布为字符格式,采用一个段落的中文和外文。有多个国家和中国省份时,中国列在各国家名
称的最后,各中国省份名称之前。每一个分布区域名称包括中文名和英文名,中国省份英文名采用拼
音。按照中文名在前、英文名在后的顺序,中文名与英文名间用半角逗号分开,缺失任何一种文字的地
名时,仍然保留逗号。不同分布区域地名间用一对"
\|"符号(Ⅱ)隔开,结尾无标点符号。该项目无数据
时留空。
采集地为字符格式,包括地名和位置两部分,采用一个段落的中文和外文。
地名部分中,中国地名英文名采用拼音。按照中文名在前,英文名在后的顺序,中文名与英文名间
用半角分号分开,缺失任何一种文字的地名时,仍然保留分号。英文名中不同级别地名间用半角逗号
分开。
位置部分中,字符串中要素按照下列顺序排列:纬度值,经度值,高程,坐标参照系标识符;终止符号
用斜线符号"/"表示。北纬为正值,南纬为负值;东经为正值,西经为负值。经度和纬度以十进制度和小
数度表示。相对于基准面正方向的高程为正值,负方向的高程为负值。格式见GB/T
16831—2013。
地名与位置字符串之间用半角分号分开。
地名和位置中各要素缺项时,应保留半角分号的分隔符。
采集日期为字符格式,采用一个段落的数字,精确到日。格式见第4章。
鉴定人为字符格式,采用一个段落的外文。直接采用原文的格式。
GB/T 33919—2017
鉴定日期为字符格式,采用一个段落的数字,精确到日。格式见第4章。
寄主为字符格式,采用一个段落的中文和外文。每一个寄主名称包括中文名和学名,按照中文名在
前、学名在后的顺序,中文名与学名间用半角逗号分开,缺失任何一种文字的名称时,仍然保留逗号。不
同寄主间用一对" \|"符号()隔开。该项目无数据时留空。
鉴别特征为字符格式。采用一至多个段落的中文和外文,中文段落中的外文保持原样,外文段落另
起段落排在中文段落后面。不同类别的鉴别特征(如形态学、物理性状等)放置在不同的段落。该项目
无数据时留空
生物数字标本的生物学为字符格式。采用一至多个段落的中文和外文,中文段落中的外文保持原
样,外文段落另起段落排在中文段落后面。该项目无数据时留空。
相关法规列表为字符格式。采用一个段落的汉字和外文,汉字中的外文保持原样,外文项目排在中
文后面。外文如有译文,放在中文部分,不再保留外文。不同项目间用一对"
\|"符号(Ⅱ)隔开。本项目
无数据时留空。
图片为.jpg、bmp、gif格式,保存在磁盘目录下。采用中转数据库时,以二进制格式保存在表的二
进制字段中。
图片链接采用字符格式。当存在多个图片链接时,之间用一对"
\|"符号(Ⅱ)隔开,结尾无标点符号,
采用一个段落的中文和外文。该项目无数据时留空。
图片标题为字符格式。当存在多个图片标题时,之间用一对"
\|"符号(Ⅱ)隔开,结尾无标点符号,采
用一个段落的中文和外文。该项目无数据时留空。
图片说明为字符格式。当存在多个图片说明时,之间用一对"
\|"符号(Ⅱ)隔开,采用一至多个段落
的中文和外文。每项外文段落另起段落排在中文段落后面。该项目无数据时留空。
图片来源为字符格式。当存在多个图片说明时,之间用一对"
\|"符号(Ⅱ)隔开,采用一至多个段落
的中文和外文。每项外文段落另起段落排在中文段落后面。该项目无数据时留空。
图片格式有关规定见 SN/T 2340—2009。
本标准所述各数据交换方式的格式,遵循以下规则:
斜体字符串可自行书写,斜体文字说明字符串的含义,实际书写时不为斜体。
大写字母字符串为可自由命名的字符串。小写字母单词及标点符号为语法中固有的关键字,不能
改变。
GB/T 33919—2017
文中 …符号表示多个相似结构。
7.2 Web Service 互联网访问
1\<? xml version="1.0" encoding="UTF-8"?>
2 〈bio doc name="XML 文件名"〉
3 \<bio info table="表名"〉
4 \<对方数据库字段名1 field="目标数据库表字段名1"
primaryKey="true">\<!-- 对方数据库
字段名-->
5
\<对方数据库字段名2field="目标数据库表字段名2">\<!--对方数据库字段名〉
_
9 \<对方数据库字段名1 field="目标数据库表字段名1"
primaryKey="true">\<!-- 对方数据库
字段名1-->
10 \<对方数据库字段名2
field="目标数据库表字段名2">\<!--对方数据库字段名2-->
11 \<对方数据库字段名3 field="目标数据库表字段名3"
type="integer">\<!--对方数据库字
段名3-->
13 \<!-- atch info -->
说明:
行2:
bio doc:xml根节点,支持嵌套,子节点是访问父节点指定的 xml
元素的子元素(可自由命名)。
name:xml 元素定义属性名称。
行3:
bio info:xml构造节点,获取交易表定义节点(可自由命名)。
name:定义交易表的表名元素属性。
行4:
field:定义的交易表的文件传输元素属性。
primaryKey:定义 xml 交易表的主键元素。
行 8 :
atch info:xml构造节点,获取交易表相关联的子表定义节点(可自由命名)。
行11:
type:定义的表字段类型元素, 一般默认为
String类型可以不用填写,除了date,integer 等类型应
注明。
详细格式参见附录 A。
"records":本次交换数量,
GB/T 33919—2017
"rows":{
"字段名1":字段1的内容,
"字段名2":字段2的内容,
详细格式参见附录B。
HTTP
访问方式为客户端向服务器端发出请求,收到请求后,服务器向客户端返回一个状态,以及
返回的内容,包括请求的文件、错误消息或者其他信息。语法格式主要有以下两种类型:
http://WEBSERVER:PORT/VIRTUALROOT/VIRTUALNAME [/PATHINFO][/XPATHEX-
PRESSION]
[?param=VALUE[&.param=VALUE]..n]
或
http://WEBSERVER:PORT/VIRTUALROOT?{sql=SQLSTRING PLATE}
[?param=VALUE[&.param=VALUE]..n]
\| template = XMLTEM-
说明:
[]括号中的为可选项。
WEBSERVER 表示 WEB 服务器。
PORT 表示端口号。
VIRTUALROOT 表示虚拟目录,包括访问数据库、WEB 安全认证模式、HTTP
访问类型等信息。
VIRTUALNAME 表示虚拟名称,它有三种取值:template、schema、dbobject。
XMLTEMPLATE 表示正在执行一个模版文件;schema
表示已定义了某一模式;dbobject 表示可
以在 URL 中直接指出表或视图的名称。
PATHINFO 表示模板文件或匹配模式文件的存储路径。
XPATHEXPRESSION 表示针对数据库对象和匹配模式文件的 Xpath 查询表达式。
?sql 表示要执行的 SQL 语句。
SQLSTRING 表示所执行的SQL 语句的具体文本。
?template 表示查询的SQL 语句存储在XML 文档中。
由于本方案有安全性的风险,因此只应在保证数据安全的情况下使用。
中转数据库作为两个数据库之间的数据中转点,接受双方数据库的读写操作,其数据结构要适应两
边数据库的数据结构。当双方数据库与中转数据库结构不同时,收发时应进行数据格式转换。推荐的
数据库表结构参见附录 C, 数据范例参见附录D。
数据交换的两个数据库之间,通过直接访问另一个数据库来获得交换的数据。当双方数据库结构
GB/T 33919—2017
不同时,访问数据库时应进行数据格式的转换。数据库表结构参见附录C。
中转文件包括在两个数据库间进行数据传递的各种计算机文件,包括桌面型数据库文件、电子表格
文件、图像文件等。中转电子表格格式结构参见附录 E。
GB/T 33919—2017
(资料性附录)
XML 数据项格式
〈? xml version="1.0"encoding="UTF-8"?>
(SPECIMEN DOC name="XML 文件名"〉
\<SPECIMEN INFO TABLE="数据库表名">
\<DECL ID field="SPECIMEN NUMBER" primaryKey="true">\</DECL ID>
\<INOROUT \<INOROUT \<INOROUT \<INOROUT \<INOROUT \<INOROUT \<INOROUT
\<INOROUT \<INOROUT
\<INOROUT
\<INOROUT \<INOROUT \<INOROUT \<INOROUT \<INOROUT \<INOROUT \<INOROUT
\<INOROUT
\<INOROUT
\<INOROUT
\<INOROUT
\<INOROUT \<INOROUT \<INOROUT \<INOROUT \<INOROUT \<INOROUT \<INOROUT
\<INOROUT
field="UPDATE TIME">\</INOROUT>
_
field="NAME CN">\</INOROUT>
_
field="NAME SCINCE">\</INOROUT>
_
field="NAMER">\<![CDATA[ ]]>\</INOROUT>
field="NAMING YEAR">\</INOROUT>
_
field="SYNONYM SCINCE">\</INOROUT>
_
field="SYNONYM CN">\</INOROUT>
_
field="NAME EN">\</INOROUT>
_
field="SYNONYM EN">\</INOROUT>
_
field="RECORD TYPE">\</INOROUT>
_
field="KINGDOM">\</INOROUT>
field="PHYLUM">\</INOROUT>
field="CLASS">\</INOROUT>
field="ORDER">\</INOROUT>
field="FAMILY">\</INOROUT>
field="GENUS">\</INOROUT>
field="GEO DISTRIBUTION">\</INOROUT>
_
field="COLLECTION PLACE">\</INOROUT>
_
field="COLLECTION DATE">\</INOROUT>
_
field="IDENTIFIER">\</INOROUT>
field="IDENTIFICATION DATE">\</INOROUT>
_
field="HOST">\</INOROUT>
field="CHARACTERS">\<![CDATA[ ]]>\</INOROUT>
field="BIOLOGY">\<![CDATA[ ]]>\</INOROUT>
field="REGULATION LIST">\<![CDATA[ ]]>\</INOROUT>
field="IMAGE LINK">\<![CDATA[ ]]>\</INOROUT>
field="IMAGE TITLE">\<![CDATA[ ]]>\</INOROUT>
field="IMAGE DESCRIPTION">\<![CDATA[ ]]>\</INOROUT>
field="IMAGE SOURCE">\<![CDATA[ ]]>\</INOROUT>
\</SPECIMEN INFO>
_
\</SPECIMEN DOC>
_
GB/T 33919—2017
(资料性附录)
JSON 数据项格式
"records":本次交换数量,
"rows":{
"SPECIMEN NUMBER": 生物数字标本编号,
"UPDATE TIME": 数据源更新时间,
"NAME CN": 生物中文名,
"NAME SCINCE": 生物学名,
"NAMER": 学名命名人,
"NAMING YEAR": 学名命名年份,
"SYNONYM SCINCE": 学名异名,
"SYNONYM CN": 生物中文别名,
"NAME EN": 生物英文名,
"SYNONYM EN": 生物英文别名,
"RECORD TYPE": 记录类型,
"KINGDOM": 界 ,
"PHYLUM": 门 ,
"CLASS": 纲,
"ORDER": 目 ,
"FAMILY": 科 ,
"GENUS": 属,
"GEO DISTRIBUTION": 地理分布,
"COLLECTION PLACE": 采集地,
"COLLECTION DATE": 采集日期,
"IDENTIFIER": 鉴定人,
"IDENTIFICATION DATE": 鉴定日期,
"HOST": 寄主,
"CHARACTERS": 鉴别特征,
"BIOLOGY": 生物学,
"IMAGE LINK": 图片链接,
"IMAGE TITLE": 图片标题,
"IMAGE DESCRIPTION": 图片说明,
"IMAGE SOURCE": 图片来源,
.
GB/T 33919—2017
(资料性附录)
中转数据库表格式
表 C.1 中转数据库表格式
|
|
|
|
---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
GB/T 33919—2017
表 C.1 ( 续 )
|
|
|
|
---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
注 1 : 本表为数据库表结构。
注 2 :
一个生物数字标本有多个编号、异名、别名、寄主、多个地理分布或多个图片资料数据等,存入中转数据库时,
根据本标准提供的格式,分别汇总放入相应的字段中。
GB/T 33919—2017
(资料性附录)
格式范例
表 D.1 项目格式范例
|
|
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
GB/T 33919—2017
表 D.1 (续)
|
|
---|---|
|
|
|
|
|
|
|
|
|
|
|
|
注 1 :
生物学名中的斜体在保存到数据库中时采用正体,显示和打印时采用斜体。
注 2 :
地理分布和寄主中缺乏资料的文种可以留空,但是标志符应保留。
注 3 : 地理分布、寄主、图片的信息等栏目常为多个项目,用
符号间隔。
注 4 : 图片说明无,保留空缺。
GB/T 33919—2017
(资料性附录)
中转电子表格格式
表 E.1 中转电子表格格式
|
---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
GB/T 33919—2017
表 E.1 ( 续 )
|
---|
|
|
|
|
注 1 : 各项目内容及格式参见第5、6章。
注2:
当某项含有内容超出表格容量时,制作附表,包含生物数字标本中文名、生物数字标本学名,以及含超出部分
内容的项目。
注3:
每表含1张图片。当有多个图片时,单独制作含有生物数字标本中文名、生物数字标本学名、图片链接、图片
标题、图片说明、图片来源项目的附表。
style="width:3.11331in" />GB/T 33919—2017
更多内容 可以 GB-T 33919-2017 生物数字标本数据交换规范. 进一步学习